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(华南 师范 大 学 心理 学 院 ， 广 州 510631) 


估计 分 数 概率 、 连 续 化 、 等 值 、 评 估 等 值 结果 。 该 方法 


兼 具 线性 等 值 与 等 百 分 位 等 值 的 优点 ,各 环节 扩展 性 与 包容 性 较 强 ; 采用 平滑 与 连续 化 处 理 ， 


可 降低 等 值 随机 误差 ; 等 值 差异 标准 误 等 其 所 特有 的 概念 为 结果 评 佑 提供 可 靠 的 工具 。 连续 
化 与 带宽 选择 方法 等 因素 均 可 影响 其 表现 ; 基于 核 等 值 的 新 方法 为 等 值 发 展 提供 了 新 颖 的 视 
角 。 未 来 可 关注 核 等 值 体 系 的 扩充 与 完善 、 流 程 的 更 新 、 等 值 方法 的 结合 和 比较 等 方向 。 
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连续 化 ， 带 宽 选 择 ， 等 值 新 方法 


3 日 ， 国 务 院 印 发 的 《关于 深化 考试 招生 制度 改革 的 实施 意见 》 指 出 ， 要 


会 ”,“ 外 语 科目 


“完善 高 中 学 业 水 平 考试 ”，“ 创 造 条 件 为 有 需要 的 学 生 提 供 同一 科目 参加 两 次 考试 的 机 


提供 两 次 考试 机 会 ”。 多 次 考试 成 绩 间 的 可 比 性 逐渐 成 为 社会 关注 的 热点 。 


另 一 方面 ,教育 与 心理 


ys 


T 是 教育 考试 招生 


r= 在 指向 同样 的 问题 一 一 测验 分 数 的 可 比 性 。 


测验 等 值 (Test Equating), 便 是 解决 上 述 问 题 的 常用 方法 。 它 是 指 调整 不 同 测验 形式 上 
的 分 数 ， 使 其 能 够 相互 蔡 代 的 统计 过 程 (Kolen & Brennan, 2014)。 具 体 而 言 ， 等 值 是 对 测量 


测验 理论 的 发 展 与 应 用 ， 使 评估 能 力 水 平 、 兴 趣 爱 好 、 职 业 倾 向 等 心 
理 特 质 更 为 方便 与 快捷 。 不 同 测验 形 式 间 的 分 数 相互 转换 ， 也 成 为 学 者 们 研究 的 重点 。 不 论 


判 度 改革 的 社会 热点 ， 还 是 教育 与 心理 测量 理 


论 的 研究 重点 ， 不 约 而 同 ， 都 


同一 心理 特质 的 不 同 测验 分 数 或 试题 参数 , 通过 一 定 的 数学 模型 ， 转 换 成 同一 单位 系统 中 的 


ral 


FHS (Classical 


量 数 ， 以 利于 相互 比较 的 方法 〈 张 敏 强 ， 胡 晖 ，1988)。 常 用 等 值 方法 主要 包括 基于 经 典 测 


Test Theory, CTT) 的 方法 与 基于 项 目 反应 理论 (Item Response Theory, IRT ) 


的 方法 。 前 者 主要 分 为 平均 数 等 值 (Mean Equating, ME)、 线 性 等 值 (Linear Equating, LE), 


等 百 分 位 等 值 (Equipercentile Equating,EE)， 后 者 主要 分 为 IRT 真 分 数 等 值 ORT True Score 


Equating, IRT TSE) 与 IRT 观察 分 数 等 值 ORT Observed Score Equating, IRTOSE)。 近 些 年 ， 


收 稿 日 期 ， 2019-05-12 


国家 社会 科学 基金 


般 项 目 (BHA180141) 资助 。 


通信 作者 : 张 敏 强 ， 


E-mail: 2640726401 @qq.com 


随 着 测验 等 值 理 论 的 发 展 ， 以 核 等 值 (Kernel Equating; 关 丹 村 ， 景 春 丽 ，2018; Dorans & 


Puhan, 2017; Underhill, 2017; Wallin & Wiberg, 2019; Wiberg & González, 2016)、 局 部 等 值 


(Local Equating; Xin & Zhang, 2015), 


纳入 协 变量 的 等 值 方法 (equating with Covariates; 


Gonzalez, Barrientos, & Quintana, 2015; Kim & Lu, 2018; Lu & Guo, 2018; Sansivieri & Wiberg, 


2016; Wiberg & von Davier, 2017) 等 为 代表 的 一 批 新 兴 等 值 理论 与 技术 ， 为 等 值 提 供 了 新 的 


视角 ， 促 进 了 研究 与 实践 的 发 展 。 


最 初 ， 核 等 值 是 在 美国 教育 考试 服务 中 心 (Educational Testing Service, ETS) 的 研究 报 


告 中 被 首次 提出 , 其 主要 目的 为 开发 新 的 等 值 方法 , 充分 挖掘 对 数 线性 模型 (Log-linear model) 
合 分 数 分 布 的 潜力 与 优势 。 但 当时 该 理论 并 不 成 熟 ， 仅 适用 于 随机 等 组 设计 (Equivalent 


Groups design, EG) 和 非 等 组 锚 测 验 设 计 (Non-Equivalent groups with Anchor Test design, 


NEAT)。 其 后 随 着 von Davier Holland # 


Thayer (2004) 出 版 著作 The Kernel Method of Test 


FEgualig(《 核 等 值 》， 核 等 值 成 为 涵盖 单 组 设计 〈Single Group design, SG)、 随 机 等 组 设计 、 


平衡 组 设计 〈Counter-Balanced group design, CB) 与 非 等 组 锚 测验 设计 的 完善 等 值 方法 。 近 
些 年 ， 研 究 者 们 又 将 其 整合 为 了 观察 分 数 等 值 体系 〈observed score equating framework), X 


一 步 扩 展 了 应 用 范围 与 价值 (von Davier 2011a, 2011b, 2013)。 得 益 于 其 较 CTT 与 IRT 等 值 


方法 的 突出 特点 与 优势 ， 核 等 值 方法 得 到 了 国外 研究 者 们 的 广泛 关注 (Andersson & Wiberg, 


2017; Arikan & Gelbal, 2018; De Ayala, Smith, & Norman Dvorak, 2018; Leôncio & Wiberg, 2017; 


Wallin & Wiberg, 2019). BEAMER, MARK Aa TARE HT REI HBT IE A IT 


以 促进 其 在 国内 的 传播 、 普 及 与 应 用 。 


2 核 等 值 理论 


述 并 探究 了 它 的 表现 〈 陈 俊 丽 ，2008; 罗 莲 ，2008a，2008b)， 尔 后 便 无 人 问津 。 故 本 文 由 


在 通过 详细 介绍 核 等 值 理 论 与 操作 流程 , 综述 相关 研究 成 果 与 进展 , 并 归纳 其 未 来 研究 方向 ， 


核 等 值 是 一 种 测验 等 值 的 方法 体系 ， 它 基于 近似 传统 EE 的 方法 ， 并 将 LE 作为 特例 。 


核 等 值 研究 共 包 含 五 步 : (1) 预 平 滑 〈Pre-smoothing)， 即 采用 对 数 线性 模型 拟 合 原始 观察 


分 数 分 布 ， 从 而 得 到 相关 的 单 变量 或 双 变 量 分 数 概率 分 布 (univariate or bivariate score 
probabilities). (2) 估计 分 数 概率 (Estimation of the score probabilities )， 即 通过 设计 函数 
(Design Function), 将 拟 合 的 样本 分 数 概率 转化 为 总 体 分 数 概率 。(3 ) 连 续 化 (Continuization )， 


即 通 过 选择 合适 的 核 函 数 Chkernel function) 与 带宽 (bandwidth parameter)， 将 待 等 值 两 测验 


的 离散 累积 分 布 函数 转化 为 连续 累积 分 布 函数 。(4) 等 值 (Equating)， 即 采用 核 等 值 框架 下 
的 等 百 分 位 等 值 函 数 ， 将 两 测验 分 数 进行 等 值 。(5) 计算 等 值 标准 误 (Standard Error of 
Equating, SEE) 和 等 值 差异 标准 误 (Standard Error of Equating Difference，SEED )， 即 对 等 
值 结 果 进 行 评估 。 下 面 以 EG 为 例 , 详细 介绍 核 等 值 各 流程 , 其 他 等 值 设计 及 细节 请 参考 von 


Davier 等 人 (2004) 的 著作 。 


2.1 核 等 值 流程 


2.1.1 预 平滑 


预 平滑 即 采 用 统计 模型 〈 主 要 为 对 数 线性 模型 ) 拟 合 待 等 值 两 测验 的 样本 分 数 分 布 ， 并 
通过 极 大 似 然 估计 (Maximum Likelihood Estimation, MLE) 方法 获得 模型 参数 ， 最 后 经 由 拟 
合 指标 确定 最 佳 模型 的 统计 过 程 。 

假设 有 待 等 值 测验 X 与 Y， 它 们 的 分 数 分 布 为 随机 变量 天 5 Y, Fx) Aly, TIRER 
能 分 数 ， 用 wy 和 sk 分 别 代表 相应 分 数 概率 ， 因 此 有 向 量 r = (14, ..., 7) Alls = (54, Sg)": 
jy 和 mx 分 别 代表 对 应 的 人 数 ， 因 此 有 N = Dj nj AIM = Ekme. JEEN = (ny,.…,ny)* 和 
K 维 向 量 mm = (m, .mx)* 相 互 独 立 ， 且 均 服 从 多 项 分 布 (Multinomial Distribution), BH 


N 


x| 


N! nj 
P= n4! zall : Ww 


以 下 关于 测验 Y 的 性 质 均 可 由 测验 X SELLS, MERR. 
同时 ， 可 得 用 于 拟 合 分 数 概率 的 对 数 线性 模型 一 般 形式 为 


Tr 
log(n) = ar + > B(x) ， (2) 
i=1 


其 中 ，aj 为 标准 化 常数 ， 以 保证 所 有 ny 总 和 为 1; Tee eA BATT 
计 参 数 。 
最 后 可 通过 MLE 方法 求解 似 然 函 数 


Ly = log(1;) 。 (3) 


j 
von Davier 等 人 (2004) 提 出 四 个 评价 .选择 预 平 滑 模 型 的 标准 :(1) 一 致 性 (Consistency )， 


即 随 着 样本 量 增 大 ， 参 数 估计 值 应 收敛 于 总 体 真 值 ; (2) 高 效 性 〈Efficiency)， 即 考虑 到 相 
应 样本 量 ， 估 计 值 与 总 体 真 值 间 的 偏差 应 尽 可 能 小 ;3 ) 概率 为 正 数 〈Positivity)， 即 所 有 测 
验 分 数 对 应 概率 值 均 为 正 数 ; (4) 完整 性 〈Integrity)， 即 拟 合 的 分 数 分 布 应 保持 与 样本 分 数 
PAB Pty CUP EI. JA. WE ERE) 不 变 。 和 常用 指标 有 Freeman-Tukey 残 差 、 


似 然 比 - 卡 方 等 (Holland & Thayer, 2000). 
在 此 过 程 中 ,可 得 到 关于 + 的 较 大 维度 估计 协 方差 矩阵 2# 。 经 证 明 ， 将 其 矩阵 分 解 转化 
为 较 小 维度 的 矩阵 G6,.， 可 应 用 于 后 续 SEE 和 SEED 的 计算 ， 提 高 等 值 分 析 效 率 。 


2.1.2 估计 分 数 概率 

在 估计 分 数 概率 阶段 ,采用 与 各 等 值 设计 相对 应 的 设计 函数 , 将 预 平 滑 阶 段 拟 合 的 分 数 
概率 ， 经 线性 或 非 线 性 变换 ， 转 化 为 目标 总 体 分 数 概率 ， 并 以 向 量 形 式 表 示 。 

von Davier FA (2004) 指出 ， 可 根据 预 平滑 阶段 参数 的 假设 分 布 和 数量 将 等 值 设 计 分 
为 两 种 类 型 : 一 种 是 EG， 为 单 变量 分 布 ， 另 一 种 包含 SG、CB 和 NEAT， 为 双 变 量 分 布 。 

在 EG 中 ， 采 用 设计 函数 得 到 总 体 分 数 概率 的 公式 为 


=e = (0 O @ 
其 中 了 [和 下 分 别 为 x J 和 K x K 单 位 矩阵 。 可 以 发 现 ，r 与 s 在 转换 前 后 并 未 发 生 改 变 ， 这 是 
因为 EG 的 特殊 性 ， 无需 对 样本 分 数 概率 进行 转换 ， 便 可 得 到 相应 总 体 分 数 概率 。 为 与 其 他 
三 种 设计 的 设计 函数 在 形式 上 保持 一 致 ， 故 作 此 处 理 。 而 在 其 他 三 种 设计 中 , 均 需 首先 将 双 
变量 分 布 概率 矩阵 向 量化 ， 再 将 类 似 的 抢 阵 与 其 相 乘 ， 从 而 得 到 总 体 分 数 概率 。 
设计 函数 的 重要 作用 还 体现 在 其 雅 各 比 矩 阵 Jacobian Matrix)， 即 设计 函数 关于 分 数 概 
率 + 与 s 的 一 阶 偏 导 和 矩阵 Jpg， 主 要 用 于 SEE 与 SEED 的 计算 。 


2.1.3 连续 化 


将 待 等 值 两 测验 的 离散 累积 分 布 函数 转化 为 连续 累积 分 布 函数 , 并 将 其 应 用 于 后 续 等 值 
过 程 中 ,可 降低 因 样 本 数据 表现 不 稳定 、 不 规则 而 导致 的 等 值 误 差 ， 这 便 是 连续 化 的 基本 思 


想 和 操作 。 
AWH, KAREE XY, 与 连续 随机 变量 挛 加 和 ， 并 进行 一 定 转换 ， 可 使 调整 后 
的 XChx) 与 YChr) 连 续 ， 且 中 心 矩 在 转换 前 后 保持 不 变 ， 此 即 核 函数 连续 化 的 基本 思想 。 常 用 


的 连续 核 为 高 斯 核 (Gaussian kernel)。 转 换 后 X(hx) 为 


X (hy) = ay(X + hyV) + (1 — ax)ux> (5) 


其 中 a2 = 一 之 > hy AER IER GEW), uyogA X 在 等 值 总 体 上 的 平均 数 与 方差 。 


2 Zee 
Oxthy 


BERR, TEPEE, HRX ay) RRA RM 
Fiy 00) = X 1) (Rx); © 


J 


其 中 @(s) 为 标准 正 态 分 布 的 累积 分 布 函数 ，Rix(x] = OEE oe 


axhy 
可 见 , 带宽 hx 确定 了 Fh (Xx) 的 平滑 程度 ,最 第 用 的 hx 选择 方法 为 惩罚 法 (Penalty Method), 
其 函数 为 


PEN(hy) = > (1i fag) +K: Ò A-B). 四 
j j 


正 态 分 布 


HE fy (xz) 为 XChx) 的 概率 密度 函数 ， H fay (2) = Er o(R 0) —., d(.) 为 标准 


axhx 


概率 密度 函数 ; 为 常数 ， 当 在 x 稍 偏 左 的 位 置 fr,(x) < 0 时 ，4) = 1， 当 在 % 稍 偏 右 的 位 置 
f(x) > OW, Bj = 0。 

该 函数 等 号 右边 第 一 部 分 的 逻辑 是 选择 使 XChx) 的 概率 密度 函数 与 估计 的 总 体 差 异 最 
小 ， 且 尽 可 能 拟 合 原始 分 布 中 的 “ 齿 状 (teeth) ”与 “跳跃 (gaps) ”形态 的 带宽 ;第 一 部 
分 的 逻辑 为 惩罚 使 概率 密度 函数 呈现 “U” 形 分 布 的 带宽 ， 以 确保 连续 化 后 的 分 数 分 布 平滑 ， 
最 后 选择 最 小 惩罚 函数 值 对 应 的 必 作 为 带宽 。 


2.1.4 等 值 


借助 上 述 结果 ， 依 据 EE 的 基本 思想 ， 可 得 到 核 等 值 函 数 的 一 般 表达 式 为 


ey(x) = ey (257, 8) = Gr} (Fay (x;7);s) = Gil (Fay) » (8) 


其 中 Fhy Ce; m) 为 连续 化 后 XCax) 的 累积 分 布 函数 ，GAL() 为 yChr) 的 累积 分 布 函数 的 反 函 数 。 
对 于 分 数 xy， 可 首先 找到 其 在 X(hx) 总 体 上 的 百 分 等 级 ， 进 而 求 得 该 百 分 等 级 在 Y(hy) 总 体 
上 对 应 的 百 分 位 数 ， 即 等 值 分 数 ey(xj)。 


经 von Davier 等 人 (2004) 证 明 ,LE 与 EE 间 相 差 一 个 形状 差异 函数 R(x)(shape difference 


function)。 可 选择 较 大 带宽 (通常 为 hy > 10ox，hy > 100oy )， 使 核 等 值 结果 近似 于 CTT 等 


值 中 的 LE 结果 。 此 即 核 等 值 将 LE 作为 其 特例 的 理论 依据 。 


2.1.5 计算 SEE 与 SEED 


SEE 为 等 值 随机 误差 ,主要 来 源 于 抽样 方法 。 假设 等 值 基于 目标 总 体 而 非 样 本 , 便 不 存 
在 SEE。 可 采用 6 方法 计算 SEE， 其 基本 公式 为 


SEEy(x) = oy(x) = [Var(ey(x)). (9) 


特别 地 ， 核 等 值 SEE 的 计算 通常 采用 如 下 方式 


SEEy(x) =ll JeyJprC | ， (10) 


其 中 , Jo, 为 核 等 值 函数 关于 z 与 8 BIER HIERE: Jpop NUT PBR r5 s BIER IERE, 
5 


v= [Ev BND ABR FLEE CNET EN EEI, JB BE 
了 


对 于 相同 等 值 数据 ， 采 用 不 同等 值 方 法 所 得 结果 间 差 异 的 标准 差 ， 即 为 SEED， 其 主要 
于 核 等 值 函 数 间 的 比较 ， 作 为 衡量 其 差异 程度 的 指标 。 只 有 当 等 值 函数 间 差 值 在 
[一 2SEED,2SEED] 外 时 ， 才 可 认为 其 差异 显著 。 计 算 公 式 为 


SEEDy(x) = | Var(ei(x) — e2(x)) =" JeJpr1C — Je,Jpr2C I > (11) 


各 参数 含义 同 SEE。 


2.2 核 等 值 特点 


核 等 值 主要 有 六 个 特点 : CL) 它 将 CTT 等 值 中 最 常用 的 LE 与 EE， 作 为 特例 ， 纳 入 统 
一 框架 ， 扬 其 长 避 其 短 ; (2) 理论 体系 完善 ， 从 等 值 设 计 到 等 值 评 价 ， 均 在 设计 函数 等 一 系 
列 核 等 值 所 特有 且 相 互联 系 的 框架 中 完成 ;同时 也 可 对 各 环节 单独 分 析 《〈 模 块 化 )， 便 于 等 
值 的 评估 与 改善 ; (3) 可 调整 各 参数 ， 形 成 不 同等 值 方 法 ， 极 其 包容 性 与 扩展 性 ;(4) 开创 
性 地 提出 SEED 的 概念 ， 作 为 等 值 结果 间 差 异 的 比较 基准 ; (5) 采用 预 平滑 和 连续 化 ， 可 显 
著 降低 因 样 本 量 过 少 造成 的 等 值 随机 误差 ,同时 也 适 于 大 样本 等 值 ; (6) 并 未 限定 待 等 值 测 
验 间 极端 分 数 对 应 等 值 〈EE 与 IRT OSE 均 有 此 不 足 )， 而 是 根据 核 函 数 将 等 值 分 数 范 围 扩 


Ne 


展 。 


2.3 核 等 值 评价 指标 


评价 核 等 值 的 指标 主要 包括 SEE. SEED 与 PRE。SEE 与 SEED 前 已 介绍 。PRE SEE 
量 等 值 后 的 ey(X) 与 Y 的 分 布 差异 ， 从 而 判断 其 对 “完整 性 ”的 满足 程度 ， 公 式 如 下 


Hp (ey (X)) — Up (Y) 
Up (Y) 


其 中 jp(Y) = Bx Cyr) ?sk Mp(ev(X)) = Le T ue 


其 他 在 等 值 领域 通用 的 评价 指标 也 适用 于 核 等 值 ,例如 ,bias、DTM、MAD、RMSD(Kolen 


lin 


PRE(p) = 100 x (12) 


& Brennan, 2014) 与 RMSE (Wallin & Wiberg, 2019) 等 。 


3 研究 进展 


3.1 观察 分 数 等 值 体系 


基于 核 等 值 研究 的 五 个 流程 ，von Davier (2011a, 2011b, 2013) 提出 了 观察 分 数 等 值 体 
系 。 她 认为 ， 选 择 不 同 的 对 数 线 性 模型 、 等 值 设计 和 带宽 ， 可 分 别 改变 公式 〈10) PACH 
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阵 、 Jore» 进而 改变 等 值 结果 , 使 核 等 值 从 单一 的 方法 扩展 为 体系 。 例如 ,von Davier 等 


A (2006) 提出 ， 可 通过 调整 带宽 ， 使 核 等 值 结果 近似 于 部 分 CTT 等 值 结果 ， 详 见 表 1。 


可 见 ， 由 核 等 值 发 展 而 来 的 观察 分 数 等 值 体系 具有 灵活 、 可 拓展 等 优势 ,为 其 理论 的 扩 


充 及 与 其 他 等 值 方法 的 结合 提供 便利 。 


表 1 常用 CTT 等 值 与 核 等 值 方法 对 应 表 


等 值 设 计 CTT 等 值 核 等 值 

等 百 分 位 等 值 核 等 值 ( 最 优 带 宽 ) 
EG 

线性 等 值 AR RK, hy > 100,, FF) 
等 百 分 位 链 等 值 核 链 等 值 〈 最 优 带 宽 ) 
等 百 分 位 后 分 层 等 值 核 后 分 层 等 值 〈 最 优 带 宽 ) 

NEAT 线性 链 等 值 核 链 等 值 〈 较 大 带宽 ) 
Tucker 等 值 核 后 分 层 等 值 〈 较 大 带宽 ， 特 定 条 件 下 ) 


Levine 观察 分 数 等 值 


3.2 连续 化 方法 


3.2.1 Epanechnikov 核 


Cid 和 von Davier (2015), Gonzalez 和 von Davier (2016) 将 Epanechnikov 核 引 入 核 等 


值 研究 ， 它 通过 赋予 近 分 数 点 区 域 较 大 权重 ， 远 分 数 点 区 域 较 小 权重 ， 从 而 在 处 理 


H 


有 界 变量 


(bounded variables) 时 更 具 优势 。 具 体 而 言 ，Epanechnikov 核 的 概率 密度 函数 和 累积 分 布 


函数 分 别 为 
fv) =-(1- v?) lvl <1, 
0 vel 
a: 
F(v) = 42” ve ee 
1 v>1 


进而 ， 可 得 连续 化 累积 分 布 函数 
(3R， — R? 2 
Fry (x) = > 一 Rizla) a P by T; , 
j: 


—1<Rjxs1 Rjx>1 


其 余 各 参数 和 操作 均 与 高 斯 核 连 续 化 相同 ， 不 作 赣 述 。 


(13) 


(14) 


(15) 


3.2.2 自 适应 核 


同样 是 Cid 和 von Davier (2015), Gonzalez 和 von Davier (2016), 将 自 适 应 核 (Adaptive 


kernel) 引入 核 等 值 研究 。 与 高 斯 核 不 同 ， 自 适应 核 可 依 概 率 密度 调整 带宽 。 例 如 ， 在 低 密 


度 值 〈 极 端 分 数 ) 处， 选择 较 大 带宽 ， 以 使 分 数 分 布 更 为 平滑 ， 减 小 等 值 误 差 。 主 要 分 为 三 
步 : 


(1) 根据 2.1.3 连续 化 的 思路 ， 求 得 初步 所 ,(%)。 


(D 求 取 各 分 数 点 处 带宽 权重 系数 , Ay = (C2) 。 其 中 ，g 为 所 有 分 数 点 所 (2 ) 的 


几何 平均 数 ，a 为 稳定 系数 ， 且 一 1 < w <1， 一 般 取 w = 0.5。 
(3) 可 得 连续 化 后 的 累积 分 布 函数 为 


Fray () = > ro (Se es Taxy- U- endea À (16) 


7 ajxhjx 


其 中 ， ajx = hjx = Ajhyo 


Cid 和 von Davier (2015) 模拟 生成 了 包含 不 同形 态 (对称 、 正 偏 、 负 偏 、 两 种 轻微 负 
偏 ) 和 极端 分 数 占 比 〈 百 分 位 数 P2.5 或 P97.5 的 占 比 为 4% 和 8%， 最 小 或 最 大 分 数 的 占 比 


为 4%i) 的 作答 数据 ， 以 比较 传统 高 斯 核 、Epanechnikov 核 和 自 适应 核 在 不 同 分 数 分 布 和 极 


端 分 数 情 况 下 连续 化 的 结果 。 他 们 发 现 , Epanechnikov 核 在 两 种 轻微 负 偏 分 布 尾 端的 平滑 效 
果 较 好 。 当 包含 8% 极 端 分 数 时 ,， 自 适应 核 与 高 斯 核 表 现 相 似 ; 当 最 小 或 最 大 分 数 占 比 为 4% 
时 , 在 极端 分 数 处 , 自 适应 核 平滑 效果 较 另 外 两 种 方法 好 。 而 传统 高 斯 核对 尖 状 分 布 (spike) 
的 拟 合 效果 更 好 。 可 见 ， 连 续 化 方法 在 极端 分 数 处 的 表现 受 分 数 分 布 形态 影响 。 


3.2.3 其 他 方法 


Logistic 核 和 均匀 核 (Uniform kernel) 是 两 种 较为 传统 的 连续 化 方法 ， 它 们 各 自 采 用 
Logistic 分 布 和 均匀 分 布 的 核 函数 ， 对 等 值 样本 分 数 进行 连续 化 处 理 。 


Logistic 核 的 累积 分 布 函数 和 概率 密度 函数 分 别 为 
1 
1 + exp (—v/s)’ 
exp (—v/s) 
s(1 + exp(—v/s))?’ 
KF, s 为 量 尺 参 数 (scale parameter). 2 Logistic 核 连续 化 后 X(hx) 的 累积 分 布 函 数 与 概率 


H(v) = (17) 


h(v) = (18) 


i 在 该 研究 中 ， 设 定 “ 百 分 位 数 P2.5 或 P97.5” 的 意义 为 ， 依 据 分 数 分 布 形态 (对 称 分 布 除外 〉 取 其 一 。 
比如 ， 模 拟 正 偏 态 分 布 ， 极 端 分 数 便 为 P97.5。 最 小 或 最 大 分 数 占 比 同 理 。 
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密度 函数 分 别 为 


Fy) = Ò nH (Rix) 


J 


fay) = Yh (R) 


j 


同样 的 思路 ， 可 得 均匀 核 的 累积 分 
布 函数 与 概率 密度 函数 分 别 为 


累积 分 
0 
v+b 


BON Voge 


Fry (x) = > r; + 


Jj: 
Rjx(x)2b 


> 


v < —b 


—b<v<b, 


v>b 
—b<v<b 
其 他 


ZN 
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Jj: 
—bSRjx(x)sb 


h= > 


Jj: 
—DSR jx(x)sb 


Lee 和 von Davier (2008, 2011) 将 EG 中 采 上 月 
T Logistic 核 与 连续 均匀 核 的 表现 。 结 果 证 明 高 
态 对 连续 化 方法 影响 较 大 。 例 如 ， 高 斯 核 与 Logistic 核 的 核 
区 间 均 为 正 数 , 而 连续 均匀 核 并 非 如 此 。 除 此 之 外 , 采用 不 同 连 续 核 的 等 值 结 


核 函 数 的 


尾部 


3.3 带宽 选择 方法 


3.3.1 重复 平滑 法 


Häggström 和 Wiberg (2014) 将 重复 平滑 法 (Double Smoothing method) 应 用 于 带宽 选 


2b 


斯 核对 原 


高 斯 核 平 滑 的 核 等 值 作 为 参 


), 


(19) 


(20) 


布 函 数 和 概率 密度 函数 、 经 均匀 核 连 续 化 后 X(hx) 的 


(21) 


(22) 


(23) 


(24) 


照 基准 ， 比 较 


始 数 


【有 良好 返 真性 ， 
函数 在 整个 分 数 
果 间 差异 不 大 。 


Fi feu BST Pots 


择 中 ， 并 将 其 与 惩罚 法 比较 ,最 后 发 现 二 者 结果 相似 。 顾 名 思 义 ， 重 复 平滑 即 进行 两 次 平滑 


处 理 ， 


以 减 小 数据 离散 导致 的 等 值 误 差 。 重 复 乎 滑 法 分 为 三 步 : 


(1) 以 原始 数据 最 小 分 数 点 的 一 半 为 单位 进行 连续 化 处 理 , 得 到 X(hx) 的 概率 密度 函数 


fox) = >. 19 (Rox) —— 


’ 
Agxhgx 


X-AgxXj—(1-Agx) Ux 
L AXT i 


Agxhgx 


其 中 ， Rjgx (x) = 


2J-1 


j=1 


a2 


gX 


(2) AF fy AEX (hy) BUS A E R BL 
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(25) 


J 
fry) = X foe) (Rie) EE 


(3) 计算 使 得 重复 平滑 函数 取得 最 小 值 的 带宽 ， 该 函数 为 


2J-1 


Ds(h) = 》 作 -名 GD) ， 


l=1 


N 


Tn, /为 奇数 
(H, 方 = 2 o 
fad, [为 偶数 


3.3.2 交叉 验证 法 


(26) 


(27) 


Liang 和 von Davier (2014) 提出 的 交叉 验证 法 (Cross-Validation method)， 先 将 样本 分 


成 两 部 分 ， 然 后 将 基于 样本 所 得 的 泊 松 似 然 函数 最 大 化 ， 
四 步 : 
(1) 将 数据 分 成 两 个 随机 子 样本 。 


以 获得 


对 应 的 最 优 带宽 。 有 具体 分 为 


(2) 采用 样本 1 计算 已 (CO 和 万 (do HIP RL, 取 一 定 范围 的 值 作为 初始 值 (例如 


(3) 假设 频率 服从 泊 松 分 布 ， 交 叉 验证 过 程 可 通 


AK 一 人 


f=, 


在 [0.01,5] 每 隔 0.01 取 hx)。 因 此 ， 对 于 每 个 hx， 在 任 一 分 数 点 处 均 可 找到 对 应 值 。 
过 该 分 布 体现 ， 即 


(28) 


其 中 ，4 为 步骤 (2) 中 对 于 给 定 ix， 特 定 分 数 的 概率 密度 值 ;有 为 样本 2 中 该 分 数 的 频率 。 


C4) 将 各 分 数 的 概率 值 相 乘 得 到 似 然 函数 ， 并 取 自 然 对 数 。 该 函数 最 大 值 所 对 应 的 h 


即 为 一 个 最 优 带 宽 。 将 此 过 程 重复 1000 次 并 求 取 中 位 数 得 到 最 终 带 宽 。 
他 们 将 采用 交叉 验证 法 和 惩罚 法 的 核 等 值 与 两 种 EE 结果 对 比 ， 发 现在 bias, SEE 和 
PRE 角度 ， 采 用 交叉 验证 法 的 核 等 值 优 于 后 两 种 等 值 方法 。 


Wallin, Häggström 和 Wiberg (2017) ÙH, Z XIU 


FE 法 需 重 


复 计 算 ， 运算 效率 低 ， 为 此 


提出 了 删 一 交叉 验证 法 (Leave-One-Out Cross-Validation method). ER fn, (Xi) 时， 该 方法 


将 x 及 其 对 应 频率 删除 ， 从 而 减 小 模型 过 拟 合 问 题 ， 提 高 了 运算 效率 。 研 究 发 现 ， 从 等 值 分 
数 角度 ， 带 宽 选择 方法 的 表现 彼此 相似 ; 但 在 高 分 段 ， 不 同方 法 所 得 等 值 结 果 间 存在 较 大 差 


异 。 


3.3.3 Silverman 经 验 准则 


Silverman 经 验 准 则 通过 使 渐 近 平均 积分 平方 误差 (asymptotic mean integrated squared 


error) 最 小 化 ， 求 取 对 应 带宽 (Andersson & von Davier, 2014)。 当 分 数 为 正 态 分 布 且 采 用 
斯 核 平 滑 时 ， 可 得 到 Silverman 经 验 准 则 为 


ai 


1 
hy = 1.060yn,°« (29) 


他 们 认为 ， 可 用 0.9 代替 1.06， 以 减 小 异常 值 的 影响 ， 避 免 数 据 过 度 平滑 。 同 时 ， 考 虑 
到 ax 可 影响 最 优 带 宽 ， 调 整 的 Silverman 经 验 准 则 为 

90y 

2 ° (30) 

d 100n? — 81 

研究 表明 ， 当 分 数 分 布 较为 平滑 时 , 惩罚 法 第 一 部 分 表现 优异 ; 反之 , 调整 的 Silverman 
经 验 准则 较 好 。 (调整 的 ) Silverman 经 验 准则 直接 采用 公式 ， 计 算得 到 带宽 ， 人 简单、 直接; 
但 当 正 态 分 布 假设 不 满足 时 ， 该 方法 可 能 会 带 来 较 大 误差 。 


eu 


hy = 


3.4 基于 核 等 值 的 新 方法 


3.4.1 纳入 协 变量 的 核 等 值 


Hr 


当 样 本 组 间 存 在 明显 的 能 力 差异 时 , 在 等 值 中 , 一 般 使 用 锚 测验 调整 两 次 测验 间 的 难度 
差异 。 但 锚 题 高 曝光 率 ， 又 使 测验 保密 成 为 难点 。 为 此 ， 有 学 者 提出 ， 在 非 等 组 条 件 下 ， 利 
人 口 学 信息 (例如 年 龄 、 性别、 教育 背景 等 ) 调 整 组 间 能 力 差异 , 从 而 构造 出 伪 等 组 (Pseudo- 


Equivalent Groups) 考生 进行 等 值 (Haberman, 2015 )。 研 究 发 现 ， 该 方法 的 表现 与 其 他 等 值 


方法 不 相 上 下 ， 甚 至 可 能 更 胜 一 筹 (González et al.,2015; Kim & Lu, 2018; Longford, 2015; Lu 


& Guo, 2018; Sansivieri & Wiberg, 2016)。 其 流程 大 致 分 为 以 下 三 步 : 
C1) 构建 目标 背景 变量 分 布 。 假 设 Zix 和 Zr 分 别 为 作答 测验 X 与 测验 Y 的 第 i 位 和 j 
位 考生 的 背景 变量 。 那 么 ， 可 得 测验 Y 背景 变量 平均 数 为 


Ny 
2= > zr/N, (31) 
j=l 


其 中 , Ny 为 参与 测验 Y 的 考生 人 数 , 采 用 最 小 区 分 信息 法 (minimum discrimination information 


method; Haberman, 1984) 调整 权重 wj;x， 使 得 


TET [N =Z, (32) 


Ht 


| N. 
其 中 ， Wix > 0, AY Wix = 1, 


(2) 计算 伪 等 组 的 分 数 分 布 。 依 据 求 得 的 权重 wix， 获 得 考生 作答 测验 X 的 伪 等 组 分 
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(3) 采用 EG 下 的 等 值 方法 对 测验 X 伪 等 组 分 数 与 测验 Y 分 数 进行 等 值 。 

Wiberg 和 Brinberg (2015) 将 该 方法 引入 核 等 值 ， 用 背景 信息 作为 协 变量 ， 替 代 NEAT 
中 的 锚 测 验 ， 其 余 操 作 流 程 与 核 等 值 基本 相同 。 研 究 发 现 ， 该 方法 可 与 EG 等 值 相 媲美 ， 同 
时 使 用 锚 测 验 和 背景 信息 ， 可 获得 更 为 准确 的 等 值 结 果 。 不 过 ， 当 背景 变量 的 水 平 组 合 过 多 
时 , 每 个 组 合 上 的 考生 人 数 会 急剧 减少 , 影响 等 值 结 果 。 为 此 , Wallin 和 Wiberg (2016, 2019) 
提出 ， 用 Logistic 回归 函数 蔡 代 原来 将 背景 变量 简单 加 和 的 方法 ， 并 得 到 用 以 匹配 考生 的 倾 
向 分 数 (Propensity Score)。 结 果 表 明 该 方法 与 采用 锚 题 等 值 的 结果 相似 ， 较 同等 条 件 下 EG 
等 值 的 结果 好 ， 在 一 定 程度 上 解决 了 变量 水 平 组 合 过 多 带 来 的 问题 。 


it 


3.4.2 局 部 观察 分 数 核 等 值 


ee 局 部 等 值 依据 考生 能 力 差异 ， 分 别 构建 一 族 等 值 函 数 ， 从 而 做 到 等 值 因 “能 力 ” 而 异 ， 
Á 得 出 更 为 精确 的 结果 Cvan der Linden, 2010,2013)。 该 方法 的 提出 源 于 Lord (1980) 对 等 什 
公平 性 的 定义 , 即 分 数 分 布 在 等 值 转换 前 后 保持 不 变 。 传统 等 值 方法 将 单一 转换 关系 应 用 于 
整个 等 值 群体 的 思路 并 不 完全 合适 , 主要 因为 等 信 关 系 依赖 于 特定 总 体 且 存在 偏差 (Wiberg 
2016a)。 为 此 ， 依 据 考生 能 力 不 同 ， 局 部 等 值 构建 了 一 系列 转换 关系 。 假 设 考生 能 力 已 知 ， 
可 使 用 测验 X 与 的 条 件 分 布 计算 相应 的 局 部 等 值 ， 即 


9°(y;0) = Fijo (Fra Cy)). (33) 

需要 注意 ， 这 里 的 9 代 指 特定 能 力 考生 ， 可 以 为 锚 测 验 分 数 、 通 过 IRT 求 得 的 能 力 值 9 等 。 

众多 研究 表明 , 局 部 等 值 的 精度 与 IRT 等 值 方法 相近 , 且 均 优 于 CTT 等 值 方法 (van der 
Linden & Wiberg, 2010; Wiberg & van der Linden, 2011; Xin & Zhang, 2015 )。 受 此 启发 , Wiberg, 
van der Linden 和 von Davier (2014) 将 局 部 等 值 与 核 等 值 相 结合 ， 提 出 三 种 局 部 观察 分 数 核 
等 值 方法 ， 并 将 其 与 局 部 等 值 和 核 等 值 对 比 。 结 果 发 现 ， 局 部 IRT 观察 分 数 核 等 值 方法 的 
bias. PRE 和 SEE 均 较 小 ;局 部 核 等 值 方法 的 bias 较 小 ， 准 确 性 受 锚 测验 长 度 影响 不 大 ， 结 
果 较 为 稳定 ， 但 SEE 较 大。 综合 考量 ， 他 们 认为 ， 局 部 IRT 观察 分 核 等 值 可 替代 IRT 观察 
分 数 核 等 值 。Wiberg (2016a) 提出 了 线性 耻 TOSE， 该 方法 主要 思路 是 用 IRT 模型 拟 合作 答 
数据 ,然后 利用 作答 反应 概率 求 得 CTT 线性 等 值 中 的 总 体 参 数 进行 等 值 .她 比较 了 IRTOSE、 


线性 IRTOSE 、 局 部 线性 了 TOSE 与 局 部 线性 IRTOSE 核 等 值 四 种 等 值 方法 , 发 现 与 IRTOSE、 


See 


线性 IRTOSE 方法 相 比 ， 两 种 局 部 等 值 方法 在 MSD. MAD, RMSD 等 指标 上 的 表现 较为 优 


异 。 


3.4.3 IRT 观察 分 数 核 等 值 


IRT 观察 分 数 核 等 值 采 月 
其 余 步 骤 与 核 等 值 的 第 三 步 至 第 


H IRT 模型 拟 合 测验 原始 数据 ， 


int 


先 提出 该 方法 ， 并 详细 介 


A. 


MA] 


ETE NEAT 中 的 操作 流程 。 


多 级 计 分 IRT 观察 分 数 核 等 值 的 渐 近 标准 误 (asymptotic standard error)， 其 主要 用 于 采用 
分 析 方 法 计算 SEE 的 过 程 。 经 研究 证 
该 标准 误 的 估计 均 较 为 准确 ， 为 相关 研究 


aN 


明 ， 在 不 同样 本 


la 


五 步 基 本 相同 。Andersson, Branberg 和 Wiberg (2013) 首 


等 值 表 现 的 评估 


以 获得 两 测验 相应 的 得 分 概率 。 


H 
u 


Bi 
Bj 


hija, Andersson (2016) 推导 


、 能 力 分 布 、 锚 测验 长 度 条 件 下 ， 


提供 了 可 靠 指标 。Wiberg 


(2016b), Andersson 和 Wiberg (2017), Sansivieri, Wiberg 和 Matteucci (2017) 均 从 不 同 


角度 开展 过 相关 研究 ， 


论证 了 IRT 观察 分 数 核 等 值 的 


3.5 核 等 值 与 常用 等 值 方法 的 比较 研究 


关于 核 等 值 与 常 
特 的 优势 ， 核 拉 
有 研究 表明 ， 


等 值 方法 


更 小 ， 


H 


H 


销 测 验 分 数 与 CTT 相 
他 们 提出 了 


va ay 


会 误导 


便 


(2018) 


可 能 


eH 
7 


F CTT LE 与 EE 方法。 


因素 分 析 模 型 


为 中 立 的 


比较 了 核 等 值 与 测验 特征 | 


J CTT. IRT 等 值 方法 的 比较 研 


核 等 值 的 表现 优 于 CTT 与 
在 核 等 值 框架 下 提出 了 处 理 CB 数据 的 新 方法 ， 即 两 个 独立 单 名 
个 SG 等 值 对 最 终 等 值 的 合成 权重 ， 
或 EG 的 处 理 方式 ， 作 为 特例 来 处 


d 
结合 ， 


基于 锚 测验 真 分 数 的 混合 
CTTPSE 5 CE. 在 等 值 研究 中 , 各 方法 均 有 适 月 


验证 了 等 值 前 提 


22 


获得 学 者 们 较 多 关注 与 青睐 。 现 综述 


j IRT 4 


以 获得 不 同等 值 结果 ， 


H 


HH 


变 


3 


要 为 Levine OSE 方法 。 


HARA 


民 好 表 


究 ， 学 界 并 未 达成 共识 ; 


等 值 方法 。 


= 


Œ (conditioning variable), 2 


与 范 


现 。 


但 受益 于 其 独 
述 如 下 : 

例如 ，von Davier 等 人 (2004) 
日 设计 。 调整 两 
可 将 传统 视 CB 为 两 个 SG 


该 方法 可 通过 


并 


。 当 等 值 数 据 存在 顺序 效应 时 ， 他 们 发 现 该 方法 的 SEE 
从 而 验证 了 核 等 值 体系 的 优异 性 。von Davier 和 Chen (2013) 指 
E NEAT 数据 的 方法 。 第 一 种 是 将 锚 测 验 分 数 作为 条 件 
为 Tucker 等 值 与 后 分 层 等 值 方法 (Post-Stratification Equating, PSE); 


数 作为 待 等 值 两 测验 间 链 接 的 桥梁 ， 


出 ， 目 前 共有 三 种 处 


分 


第 二 种 是 将 锚 测 验 分 


主要 为 链 等 值 方法 (Chain Equating, CE); 第 三 种 是 将 
根据 第 三 种 


Levine EE 与 PSE。 研 究 表 明 ， 该 方法 的 等 值 表 


四 路 ， 在 核 等 值 


EX F ? 
现 优 于 
围 。 假如 数据 不 满足 等 值 前 提 ， 


E 


H 


错误 的 结论 。 基 于 此 , 为 确保 气 


Ly 


段 设 的 满足 程度 ， 在 此 基础 上 


等 值 结论 可 靠 , Ankan 和 Gelbal 


， 经 由 EG 同样 发 现 了 核 等 值 优 


为 避免 数据 模型 对 等 值 方 法 的 偏向 


(factor-analytic model), 通过 


在 中 间 分 数 与 高 


分 数 处 表现 


UBF, Ja ete! 
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, Norman Dvorak (2009) 采用 较 


蒙特 卡 洛 模拟 生成 考生 作答 反应 数据 ， 
1 线 〈Test Characteristic Curve, TCC) 等 值 方法 的 表现 ， 发 现 前 者 
间 分 数 处 表现 较 差 。 他 认为 ， 中 间 分 数 段 通常 


am 


重要 决策 〈 通 过 、 合 格 ) 的 依据 点 ， 所 以 核 等 值 方法 更 优 。Wedman (2017) 也 发 现 ， 在 SG 
下 , 将 核 等 值 与 CTT 和 IRT 等 值 方法 应 用 于 瑞典 学 业 测试 的 等 值 中 , 前 者 的 表现 优 于 后 者 。 
De Ayala A. (2018) Æ NEAT 下 ， 比 较 了 核 等 值 与 TCC 的 表现 。 结 果 表 明 ， 两 种 方法 等 
值 结果 准确 性 均 较 高 ， 但 在 参数 真 分 数量 尺 上 ， 核 等 值 的 表现 优 于 后 者 ， 且 具有 较 高 的 灵活 
性 。 

但 也 有 研究 表明 ， 核 等 值 与 其 他 等 值 方法 不 分 伯仲 。 例 如 ，von Davier 等 人 (2006) 在 
NEAT 内 锁 与 外 锁 设 计 下 构造 伪 测 验 , 并 将 EG 等 值 结果 作为 参照 标准 (criterion equating), 
发 现 核 等 值 与 LE、EE 方法 的 误差 相当 ， 且 前 者 更 接近 预先 设 定 的 等 值 标准 。Liu 和 Low 

(2007) 的 研究 也 得 出 了 相似 的 结论 。 另 一 方面 ， 有 学 者 尝试 采用 核 等 值 框架 开发 新 的 等 值 
方法 ， 同 时 比较 其 与 常用 等 值 方法 的 表现 ， 从 而 推测 核 等 值 体系 的 普遍 特性 ， 不 失 为 别 具 一 
格 而 又 颇 有 价值 的 着 眼 点 。 例 如 ，von Davier Fournier-Zajac 和 Holland (2007) 指出， 与 常 
用 LE 方法 相 比 , Levine OSE 凭借 其 较 小 的 误差 , 被 频繁 应 用 于 等 值 实践 中 。 但 在 EE 领域 ， 
却 一 直 未 有 与 之 相对 应 的 等 值 方法 。 因 此 ， 他 们 在 核 等 值 框架 下 ， 通 过 整合 Levine OSE 与 


EE， 提 出 了 混合 等 值 函 数 (hybrid equating functions) 方法 ， 并 将 其 应 用 于 实证 研究 中 ， 最 


后 发 现 该 方法 与 CTT 等 值 方法 的 结果 非常 相似 。Grant, Zhang 和 Damiano (2009) 以 及 Chen 
(2012) Æ NEAT 下 ， 比 较 了 IRT OSE 与 基于 核 等 值 的 Levine OSE 方法 。 他 们 均 发 现 ， 基 
于 不 同 理论 假设 的 两 种 等 值 方法 所 得 结果 十 分 相似 ， 可 将 基于 锚 测 验 真 分 数 的 PSE 视 为 线 
性 Levine OSE 方法 。 采 用 瑞典 学 业 测 试 及 巴西 国家 基础 教育 测试 数据 ，Le6ncio 和 Wiberg 
(2017) 比较 了 IRT OSE、 核 等 值 与 IRT OSE 核 等 值 这 三 种 等 值 方法 ， 发 现 基于 IRT 的 等 
PT 值 结果 较 稳 定 、 准 确 ， 但 核 等 值 效率 更 高 ; 如 果 选 择 合适 的 模型 拟 合 考生 分 数 分 布 ， 核 等 值 
结果 会 较为 理想 。 

更 多 研究 发 现 ,在 不 同 条 件 下 , 核 等 值 与 其 他 等 值 方 法 的 表现 各 有 优 劣 ,例如 ,Choi(2009) 
通过 模拟 研究 ， 生 成 不 同 测验 长 度 与 样本 量 的 考生 作答 数据 ， 进 而 比较 了 核 等 值 与 EE 方法 
的 表现 差异 。 最 后 发 现 , 在 EG 下 ,二 者 表现 相当 ; 但 在 NEAT F, RA PSE 核 等 值 与 CTT 
等 值 方法 结果 相当 。Meng (2012) 通过 模拟 研究 ， 操 纵 样 本 量 、 锚 测验 长 度 、 能 力 水 平 三 个 
自 变 量 ， 进 而 比较 了 PSE 核 等 值 与 IRT 等 值 方法 的 表现 。 结 果 表 明 ， 随 着 锚 测 验 长 度 和 样 
本 量 的 增加 ， 等 值 误差 逐渐 降低 ; 能 力 水 平 对 等 值 结果 影响 较 大 ; 在 不 同 分 数 区 间 ， 等 值 方 
法 表现 各 异 。 概 括 而 言 ， 核 等 值 方法 稳定 性 较 好 ， 但 不 如 IRT 等 值 方法 准确 。 

读者 可 能 会 质疑 : 样本 量 作为 自 变 量 都 出 现在 了 上 述 模拟 研究 中 , 为 何其 对 结果 的 影响 


各 异 ? 比较 后 可 发 现 ， 除 样本 量 外 ，Choi 操纵 了 测验 长 度 ， 而 Meng 操纵 的 是 锚 测 验 长 度 和 
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能 力 水 平 。 故 有 理由 推测 ， 自 变量 数量 与 水 平 设置 存在 差异 ， 导 致 自 变量 间 产 生 不 同类 型 与 
程度 的 交互 作用 ， 可 能 是 研究 结论 间 不 尽 相 同 ， 甚 至 相互 矛盾 的 直接 原因 。 

例如 ,同样 为 比较 不 同等 值 方法 在 极端 分 数 处 的 表现 ，Godfrey (2007) 发 现在 多 数 情况 
下 ， 核 等 值 方法 较 稳 定 、 准 确 ， 但 在 极端 分 数 处 ， 其 偏离 参照 等 值 较 多 ， 表 现 不 如 等 百 分 位 
链 等 值 (Chained Equipercentile Equating, CEE) 与 IRT TSE; Moses, Yang 和 Wilson (2007) 
却 证 明 , 在 中 间 分 数 段 , 核 等 值 与 EE 结果 相似 ; 但 是 在 极端 分 数 处 , 核 等 值 方法 表现 较 好 。 
比较 它们 的 研究 设计 ， 可 找到 导致 二 者 截然 不 同 结论 的 可 能 原因 
持 锚 测验 难度 不 变 ， 模 拟 生 成 了 不 同 测验 难度 、 样 本 量 、 锚 测验 长 度 的 数据 ， 并 将 SG 下 的 
EE 作为 参照 等 值 ， 而 Moses 等 人 是 通过 一 批 实证 数据 开展 等 值 研究 ， 并 未 操纵 变量 水 平 ， 
故 无 法 保证 其 结论 的 外 部 效 度 及 两 次 研究 结论 的 可 比 性 。 同 样 的 道理 ， 罗 莲 (2008a) 发 现 
核 等 值 与 CTT 等 值 方 法 均 有 较 好 的 表现 ， 在 小 样本 情况 下 ， 等 值 结果 间 的 差异 较 小 ; 但 在 
大 样本 情况 下 , 表现 出 较 大 差异 ,而 陈 俊 丽 却 发 现 , 当 以 SG 下 核 等 值 结果 作为 参照 等 值 时 ， 
NEAT 下 的 核 等 值 方法 表现 最 优 ，EE 表现 最 差 ， 而 当 以 SG 下 的 LE 结果 为 参照 等 值 时 ， 
NEAT 下 的 LE 方法 表现 最 优 ，EE 方法 依然 表现 最 差 。 可 见 ， 两 研究 间 的 预 设 条 件 并 不 相 
同 ， 当 测验 难度 及 考生 水 平均 存在 差异 的 情况 时 ， 罗 莲 将 EG 下 的 EE 作为 参照 等 值 ， 而 陈 
俊 丽 将 目光 转向 设 定 不 同 的 参照 等 值 ， 以 比较 等 值 方法 间 的 表现 。 

不 可 否认 , 虽然 以 上 逻辑 推论 具有 一 定 的 合理 性 , 但 这 些 仅 为 推测 。 多 个 因素 对 等 值 结 
果 的 影响 方式 及 结果 , 仍 需 更 多 实证 与 模拟 研究 进行 验证 与 支撑 , 进而 为 比较 核 等 值 与 其 他 
等 值 方法 间 的 表现 ， 提 供 更 多 具有 说 服 力 的 证 据 。 


Godfrey 在 NEAT 中 保 


T 


3.6 核 等 值 的 影响 因素 

影响 核 等 值 表现 的 因素 主要 有 :1) 核 等 值 相 关 变 量 ， 主 要 包含 预 平滑 模 型 、 连 续 化 方 
法 、 带 宽 选 择 方法 ; (2) 待 等 值 群体 间 相 关 变量 ， 主 要 包含 群体 间 的 能 力 表现 差异 、 分 数 分 
布 形态 、 样 本 量 ; G) 等 值 设计 相关 变量 ; (4) 待 等 值 测验 相关 变量 ， 主 要 包含 测验 长 度 、 


锚 测 验 长 度 等 。 其 中 ， 连 续 化 方法 和 带宽 选择 方法 前 已 涉及 ， 详 见 3.2 与 3.3 部 分 。 


3.6.1 预 平滑 模型 


作为 核 等 值 研究 的 第 一 步 ， 通 过 拟 合 测验 原始 分 数 分 布 ， 得 到 用 于 后 续 计 算 的 矩阵 ， 预 
平滑 模型 的 拟 合 与 选取 无 疑 会 对 等 值 结果 产生 不 可 忽视 的 影响 。 例 如 ，Godfrey (2007) 将 
SG 下 的 EE 作为 参照 等 值 ， 探 讨 了 对 数 线性 模型 对 核 等 值 的 影响 。 结 果 发 现 ， 除 具有 人 小样 


本 、 长 测验 特征 的 数据 外 ，6-6-4 模型 〈 即 保持 测验 原始 分 数 分 布 的 六 阶 中 心 矩 与 四 阶 交 叉 
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KEANE) 均 能 够 较 好 地 拟 合 所 有 作答 数据 ,获得 准确 的 等 值 结 果 。Moses 和 Holland (2007) 
基于 实测 数据 ， 构 建 伪 测 验 及 考生 作答 反应 ， 比 较 了 对 数 线性 模型 对 核 等 值 准确 性 的 影响 。 
他 们 发 现 ， 模 型 拟 合 准确 性 直接 影响 等 值 误 差 ， 但 仅 有 2-2-1 最 简 模型 对 等 值 结 果 有 实际 影 
响 ， 其 他 模型 影响 不 大 。 以 上 研究 均一 定 程度 表明 ， 对 数 线性 模型 的 拟 合 性 能 ， 均 可 能 影响 
核 等 值 准确 性 , 但 鉴于 当前 对 数 线性 模型 拟 合 指标 等 领域 的 研究 愈 发 成 熟 与 完善 , 其 对 等 值 
结果 的 影响 反而 不 甚 明显 。 例 如， 在 NEAT F, Kim (2014) 比较 了 对 数 线性 平滑 方法 及 三 
次 样 条 后 平滑 方法 (cubic spline postsmoothing) 对 四 种 等 值 方法 (PSE、 修 正 的 PSE、CEE、 
核 等 值 ) 的 影响 ， 发 现 虽 然 采用 三 次 样 条 后 平滑 方法 的 核 等 值 随机 误差 较 小 ,但 经 由 对 数 线 
性 平滑 后 的 等 值 系统 误差 及 总 误差 均 较 前 者 小 。 可 见 ， 不 再 拘 园 于 对 数 线性 模型 ， 探 索 将 更 
多 数据 平滑 方法 引入 核 等 值 ， 不 失 为 一 创新 点 。 


al 3.6.2 等 值 设 计 

= 常用 等 值 设计 主要 有 SG, EG, CB 与 NEAT。 待 等 值 考生 间 的 能 力 差异 ， 成 为 区 分 等 
© 值 设 计 的 关键 因素 ; 采用 不 同等 值 设计 处 理 相同 或 相似 的 考生 作答 数据 , 结果 可 能 并 不 相同 。 
© 例如 ，Kim (2014) 比较 了 NEAT 内 锚 与 外 锚 两 种 等 值 设 计 中 四 种 等 值 方法 (PSE、 修 正 的 
SS PSE、CEE、 等 百 分 位 核 等 值 ) 的 表现 差异 ， 发 现在 相同 条 件 下 ， 外 锚 设计 的 等 值 误 差 ， 尤 
N 其 是 随机 误差 ， 较 内 锚 设 计 小 。 为 更 好 地 处 理 等 值 子 群体 异 质问 题 ，Duong 和 von Davier 


Va 


(2008) 在 核 等 值 框架 下 提出 了 “混合 分 布 平衡 设计 (Mixture Distribution Counter-Balanced 


design) ”的 思路 。 该 方法 吸纳 SG 与 CB 的 优势 ， 首 先 用 对 数 线 性 模型 拟 合 不 同 子 群体 分 


geeni 


= 数 分 布 ， 再 采用 CB 设计 处 理 等 值 数据 ， 调 整 权 重 ， 从 而 获得 最 优等 值 结果 。 他 们 采用 2PL 
© 模型 模拟 作答 数据 , 将 IRT 多 群 组 校准 真 分 数 等 值 作为 参照 基准 , 比较 了 核 等 值 中 五 种 不 同 


的 处 理 方法 。 最 后 发 现 ， 当 权重 系数 与 样本 量 对 应 成 比例 时 ， 混 合 分 布 平 衡 设计 比 其 他 等 值 
方法 误差 小 ， 且 当 子 群体 间 能 力 差 异 较 大 时 这 种 优势 尤为 明显 。 

但 也 有 学 者 提出 了 相反 意见 。 例 如 ，Jiang,von Davier 和 Chen (2012) 采用 模拟 的 外 锚 
测验 数据 及 实测 内 锚 测 验 数据 ， 探 究 了 等 值 总 体 合成 权重 对 PSE 和 CE 的 影响 。 他 们 发 现 ， 
各 等 值 方法 表现 相似 ; 具体 而 言 , 在 CE 中 , 测验 X 与 锚 测 验 A 链接 CLinking) 结果 的 PRE 
大 于 销 测 验 A 与 测验 YY 链接 结果 的 PRE。 这 是 因为 将 长 测验 〈 测 验 X) 分 数 分 布 转化 为 短 
测验 〈 错 测验 A) 分 数 分 布 更 为 困难 。 总 之 ， 一 方面 ， 可 思考 如 何 更 为 科学 地 比较 常用 等 值 
设计 下 核 等 值 间 的 表现 ; 另 一 方面 ， 可 探索 新 的 等 值 设计 思路 ， 为 核 等 值 ， 甚 至 其 他 常用 等 
值 方法 提供 更 好 的 切入 点 。 


> 


3.6.3 待 等 值 总 体 间 能 力 差异 


一 般 认为 , 采用 不 同等 值 方法 处 理 等 值 数据 , 其 结果 的 相似 性 与 待 等 值 总 体 间 能 力 差 异 
AR: 当 能 力 差 异 较 大 时 ， 等 值 结果 不 尽 相同 ; 相反 ， 等 值 结果 基本 一 致 (Dorans, Liu, & 
Hammond, 2008; Holland, von Davier, Sinharay, & Han, 2006; Sinharay & Holland, 2010; Wang, 
Brennan, & Kolen, 2008)。 这 是 因为 ， 在 等 值 研究 中 ， 存 在 两 种 测验 分 数 差异 来 源 ， 它 们 分 
别 由 测验 本 身 难度 或 考生 总 体 间 能 力 水 平 不 同 所 致 。 若 要 保证 等 值 准 确 性 , 就 必须 将 不 同 能 
力 水 平 带 来 的 分 数 差异 从 测验 分 数 差异 中 分 离 。 对 于 SG、EG， 当 考生 总 体 间 能 力 差异 较 大 
时 ， 本 身 就 已 违反 “能 力 水 平 相同 ”的 前 提 假 设 ， 对 于 NEAT， 各 种 处 理 方式 〈 例 如 Levine 
等 值 、Tucker 等 值 ) 的 准确 性 也 都 间接 地 依赖 于 总 体 间 分 数 〈 能 力 ) 水 平分 布 相似 的 假设 。 
从 而 ， 它 们 均 在 一 定 程度 上 受到 能 力 差 异 的 影响 。 在 实证 研究 中 ，Liu 和 Low (2007, 2008) 
基于 相同 和 不 同年 份 的 两 套 SAT 口语 测试 数据 分 别 构造 出 能 力 差 异 小 〈similar population) 
与 能 力 差 异 大 (distant population) 的 待 等 值 总 体 ， 进 而 比较 了 核 等 值 与 CTT 等 值 方法 的 表 
现 。 结 果 发 现 ， 当 总 体 间 的 能 力 差异 较 小 时 ， 各 等 值 结果 相似 ; 相反 ， 当 总 体 间 的 能 力 差 异 
较 大 时 ， 其 结果 并 不 一 致 。 采 用 相似 研究 设计 ，Duong 和 von Davier (2008) 也 发 现 ， 当 子 
群体 间 存 在 较 大 能 力 差异 时 , 采用 混合 分 布 平衡 设计 所 得 的 等 值 结 果 较 传统 CB 处 理 方式 所 
得 结果 更 为 稳定 .Kim(2014) 采 用 了 IT 模型 模拟 作答 数据 , 发 现 当 组 间 平 均 能 力 差 值 为 0.05、 
0.2 或 0.5 时 , 采用 预 平滑 处 理 优 于 采用 后 平滑 处 理 的 等 值 表现 ， 当 差 值 为 -0.2 时 , 结果 则 相 
反 。 他 推测 ， 这 可 能 与 模型 对 能 力 差异 的 假定 不 同 有 关 。 


3.6.4 样本 量 


样本 量 可 从 侧面 刻画 出 等 值 结果 的 稳定 性 ， 即 随机 误差 大 小 。 当 其 他 条 件 不 变 时 , 增 大 
样本 量 可 减 小 随机 误差 。 例 如，Godfrey (2007) 探讨 了 样本 量 、 对 数 线性 模型 、 测 验 难 度 及 
锚 测 验 长 度 对 核 等 值 结 果 的 影响 。 他 将 SG 下 的 EE 作为 参照 等 值 ,以 探究 包括 核 等 值 、 CTT 
等 值 与 IRT 等 值 方 法 间 的 表现 差异 , 最 后 发 现 ， 当 样本 量 较 小 时 , 不 同等 值 方 法 间 存 在 明显 
差异 ; 但 随 着 样本 量 的 增 大 ， 等 值 误 差 逐渐 减 小 ， 各 等 值 方法 所 得 结果 趋 于 一 致 。Moses 和 
Holland (2007) 基于 真实 测试 数据 ,构建 伪 测 验 及 考生 作答 反应 ， 比 较 了 对 数 线性 模型 拟 合 
准确 性 与 样本 量 对 核 等 值 准确 性 的 影响 他 们 发 现 , 样本 量 越 大 , 标准 误 的 估计 准确 性 越 高 。 
Kim (2014), Liang 和 von Davier (2014) 也 得 出 了 类 似 结论 。 这 是 因为 ， 等 值 误差 包含 系 
统 误差 与 随机 误差 ， 系 统 误 差 主要 来 源 于 估计 准确 性 、 统 计 假设 、 等 值 设计 与 组 间 差 异 ， 其 
随 样本 量变 动 较 小 ; 而 主要 来 源 于 抽样 代表 性 的 随机 误差 则 不 然 , 它 会 随 样 本 量 增 大 而 减 小 ; 
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进而 ， 如 果 等 值 基于 目标 总 体 数 据 而 非 样本 数据 ， 便 不 存在 随机 误差 。 当 然 ， 这 种 完全 理想 
化 的 情况 在 实际 中 不 可 能 实现 。 故 而 ， 增 加 样本 量 对 等 值 有 积极 影响 。 


3.6.5 测验 长 度 


不 计 其 他 因素 , 测验 题目 数量 越 多 ,信和 度 也 就 越 高 ， 从 而 为 等 值 提供 了 有 利 前 提 ; 但 题 
目 数 量 增多 导致 分 数 区 间 增 大 ， 在 同等 情况 下 ， 又 使 得 分 配 到 各 分 数 点 上 的 考生 数量 减少 ， 
进而 可 能 会 增 大 等 值 误 差 (Wang etal., 2008), 似乎 很 难 衡量 二 者 熟 大 款 小 。 但 实际 情况 是 ， 
随 测验 题目 数 增 多 ， 高 信 度 对 等 值 的 影响 增 量 较 小 ， 而 各 分 数 频 率 却 会 显著 减 小 ， 从 而 使 后 
者 发 挥 了 举足轻重 的 作用 。 例 如 , Norman Dvorak (2009) 开展 模拟 研究 比较 了 核 等 值 与 TCC 
的 表现 ， 总 体 来 看 ， 随 着 测验 题目 数量 从 25 道 增 加 到 75 道 ， 测 验 信 度 不 断 增 加 ， 而 均 方 根 


= 差异 等 误差 指标 值 也 在 随 之 增 大 。 

Q 然而 , 在 NEAT 中 ， 锚 测验 题目 增多 却 可 能 会 减 小 等 值 误差 。 这 主要 是 因为 ， 锚 测验 是 
= 区 分 考生 能 力 差异 与 试卷 难度 差异 的 关键 因素 , 适当 增加 长 度 , 可 提高 其 对 不 同 变异 源 所 导 
© 致 的 等 值 差 异 的 区 分 能 力 ， 进 而 提高 等 值 准确 性 。 例 如 ，Kim (2014) 的 模拟 研究 发 现 ， 增 


加 锚 古 比例 可 有 效 减 小 等 值 误差 ,并 以 系统 误差 变化 最 为 明显 。Andersson (2016) 也 发 现 ， 
相 较 短 锚 测 验 ，CE 核 等 值 与 PSE 核 等 值 在 长 锚 测 验 条 件 下 均 具有 更 为 稳定 且 较 小 的 标准 
误 ; 由 于 CE 对 错 测 验 长 度 依赖 较 少 ， 也 使 得 其 表现 优 于 PSE， 进 而 从 另 一 角度 也 验证 了 上 
述 假设 。 但 锚 测 验 长 度 对 等 值 准确 性 的 影响 也 存在 一 定 程度 的 边际 递减 效应 ， 即 随 着 错 题 数 
量 增多 ， 等 值 准确 性 的 改善 空间 逐渐 减 小 ， 甚 至 可 能 会 停滞 。 例 如 ，De Ayala A (2018) 
探究 了 测验 长 度 (25 题 、50 题 、100 题 》 和 锚 题 占 比 〈10%、20%、30%) 对 核 等 值 和 TCC 
等 值 准确 性 的 影响 ,发 现 除 了 考生 能 力 估计 外 ， 等 值 结果 几乎 不 受 二 者 影响 。 他 们 推测 ， 这 
主要 是 因为 在 其 研究 中 ,整体 来 看 , 测验 信和 度 改观 较 小 ， 因 而 锚 测 验 长 度 的 变化 对 等 值 结 
影响 其 微 。 


3.6.6 分 数 分 布 特征 


为 减 小 因 分 数 分 布 不 规则 带 来 的 误差 , 在 预 平滑 阶段 , 核 等 值 采用 对 数 线性 模型 拟 合 样 
本 分 数 分 布 ; 在 连续 化 阶段 ， 采 用 核 平滑 方法 使 离散 的 累积 分 布 函数 连续 化 。 故 可 认为 ， 样 
本 分 数 分 布 特征 可 能 会 影响 核 等 值 的 表现 , 即 , 其 在 分 数 分 布 频率 较 小 处 的 表现 不 如 在 分 数 
分 布 频率 较 大 处 的 表现 。 例 如 ，Underhill (2017) 将 等 值 总 体 分 数 分 布 纳入 研究 范畴 ， 采 用 
模拟 方法 ， 操 纵 样 本 量 及 核 等 值 的 预 平 滑 程度 ， 探 究 了 在 EG 设计 、 样 本 具有 不 同 程度 的 非 


正 态 分 布 情况 下 ， 核 等 值 的 稳健 性 。 结 果 表明 ， 在 分 数 分 布 频 率 较 高 处 ， 核 等 值 较 稳 定 、 准 
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确 ; 相反 ， 在 频率 较 低 《〈 例 如 极端 分 数 ) 处 ， 核 等 值 波动 较 大 。Mao (2006) 的 研究 表明 ， 


分 数 平滑 程度 影响 SEE 人 估计。 具体 表现 为 ， 当 预 平 滑 阶段 未 引入 系统 误差 时 ， 通 过 较 低 程 


度 的 预 平 滑 模型 


可 准确 估计 SEE; 模型 平滑 程度 (CC 参数 ) 为 4 到 6 时 ，SEE 的 估计 更 为 


准确 。 但 在 这 方面 也 有 不 同 的 见解 。 例 如 ，Puhan, von Davier 和 Gupta (2008) 对 不 可 能 分 


数 ( 即 NEAT 中 


存在 个 别 分 数组 合 的 作答 数据 缺失 的 情况 ) 研究 后 发 现 ， 殊 除 不 可 能 分 数 


后 ， 预 平滑 结果 有 所 改善 ， 但 前 后 差异 不 大 。 


以 上 仅 说 明 ， 


核 等 值 结 果 受 分 数 分 布 特征 影响 ， 但 鉴于 核 等 值 采 用 平滑 与 连续 化 处 理 ， 


在 同等 条 件 下 ， 其 表现 仍 会 优 于 其 他 未 考虑 离散 数据 的 等 值 方法 。 例 如 ，Cid 和 von Davier 


(2015) 通过 模拟 五 种 分 布 形 态 (对 称 、 正 偏 、 负 偏 、 两 种 稍微 负 偏 的 测验 数据 ， 发 现在 
极端 分 数 处 和 分 数 频 率 较 小 处 ， 核 等 值 优 于 EE。 


4 展望 


综合 来 看 ， 未 来 相关 研究 可 能 在 如 下 领域 展 ] 


二 


第 一 ， 核 等 值 体系 的 扩充 与 完善 。 
核 等 值 体系 以 其 较 强 的 扩展 性 ， 为 测验 等 值 方法 的 创新 与 发 展 提供 了 便利 。 如 前 所 述 ， 


在 核 等 值 框架 下 ， 


von Davier 和 Kong (2005) 整合 了 Tucker, Levine OSE 与 CE; von Davier 


等 人 (2007) 将 Levine 线性 观察 分 数 等 值 与 EE 相 结 合 ， 提 出 了 混合 等 值 函 数 ，Moses 和 


Holland (2008) 进一步 完善 了 EE 方法 ，Chen 和 Holland (2009) 提出 了 真 分 数 CEE， 并 将 


LevineTSE 作为 其 特例 ，Chen 和 Holland (2010) 及 Chen,Livingston 和 Holland (2011) 提 


出 了 曲线 Levine OSE (Curvilinear LevineOSE)， 并 将 传统 Levine 与 Tucker 等 值 方法 作为 其 


特例 ， 整 合 为 观察 分 数 EE 函数 族 ; von Davier 和 Chen (2013) 提出 基于 销 测 验 真 分 数 的 混 


合 Levine EE 与 PSE， 等 等 。 这 些 方法 的 改善 与 创新 ， 无 不 受益 于 核 等 值 的 强大 扩展 能 力 ， 


故而 ， 研 究 者 有 望 在 其 框架 下 ， 发 现 更 多 准确 、 高 效 的 等 值 方法 。 


第 二 ， 核 等 值 流程 的 更 新 与 发 展 。 


核 等 值 研究 流程 的 不 断 完善 ， 主 要 体现 在 连续 化 与 带宽 选择 方法 两 方面 : 

C1) 连续 化 方法 。 高 斯 核 被 应 用 于 核 等 值 后 ， 众 多 连续 化 方法 〈 核 函数 ) 也 被 引入 该 
领域 ， 例 如 均匀 核 、Logistic 核 、Epanechnikov 核 、 自 适应 核 ， 以 及 基于 对 数 线性 模型 的 方 
法 《Wang,2007,2011 )。 探 索 将 更 多 优 蜡 的 随机 变量 分 布 函数 应 用 于 核 等 值 ， 不 失 为 有 价值 


的 着 眼 点 。 


(2) 带宽 选择 方法 。Jones, Marron 和 Sheather (1996) 从 理论 角度 详细 总 结 了 核 密 度 估 


计 的 带宽 选择 方法 ,然而 其 后 很 长 时 间 ， 核 等 值 领域 并 未 有 相关 进展 。 直 到 von Davier 等 人 


(2004) 系统 地 提出 核 等 值 理论 ， 并 采用 惩罚 方法 选择 带宽 ,学 者 们 又 开始 将 目光 转移 到 带 


宽 选 择 方法 。 随 后 出 现 了 重复 平滑 法 、 交 叉 验 证 法 、Silverman 经 验 准 则 ， 以 及 似 然 函 数 方 
法 (Likelihood method; Wallin et al., 2017) 等 。 探 索 更 多 的 带宽 选择 方法 ， 以 协助 研究 者 在 
核 等 值 实践 中 方便 、 准 确 地 确定 密度 函数 的 平滑 程度 ， 同 样 值得 关注 。 

第 三 ， 核 等 值 与 其 他 等 值 方法 结合 的 深入 研究 。 

更 深入 地 探索 将 核 等 值 与 常用 及 新 兴 等 值 方法 相 结 合 , 可 为 等 值 理论 发 展 和 实践 提供 新 


的 视角 与 选择 。 


具体 来 讲 ， 纳 入 协 变量 的 等 值 方法 无 需 借助 销 题 便 可 匹配 考生 能 力 ， 从 而 为 高 利害 考试 
的 等 值 问题 提供 了 解决 方案 。 但 从 人 口 统计 学 信息 中 选取 最 有 效 的 协 变量 , 要 在 保证 等 值 准 


确 性 的 同时 ,又 使 计 和 


Fl 


2019). 


简便 、 快 捷 , 需要 更 多 研究 支撑 (Wallin & Wiberg, 2016). FJET, Logistic 


归 模 型 与 数据 拟 合 程 度 ， 及 其 他 模型 的 选取 ， 对 等 值 结果 的 影响 ， 也 尚 待 研 究 。 采用 核 等 
值 方 法 ,对 倾向 分 数 分 布 进行 连续 化 处 理 , 或 许可 进一步 提高 等 值 准确 性 (Wallin & Wiberg, 


在 RT 观察 分 数 核 等 值 中 ， 采 用 具有 较 强 稳健 性 的 IRT 模型 拟 合作 答 数据 Kolen & 
Brennan, 2014); 而 核 等 值 可 通过 连续 化 减 小 等 值 误差 。 那 么 ， 当 IRT 模型 与 数据 不 匹配 且 


样本 量 较 小 时 ， 该 方法 是 否 可 在 一 定 程度 上 弥补 因 RT 模型 数据 不 拟 合 带 来 的 不 足 ? 同时， 
由 于 模拟 运算 程序 较为 耗 时 ，Andersson (2016) 仅 在 25 道 题 的 测验 中 探究 了 IRT 观察 分 数 
核 等 值 情况 ， 故 而 该 方法 在 较 长 测验 上 的 表现 仍 需 更 多 研究 验证 。 


第 四 ， 核 等 值 与 常用 等 值 方法 的 比较 。 


此 部 分 已 经 在 “和 


究 进展 ”处 详 述 。 概 括 而 言 ， 核 等 值 方法 的 等 值 准 确 性 与 CTT 及 IRT 


等 值 方法 相当 ， 甚 至 更 好 , 但 众多 研究 结论 并 不 一 致 。 这 可 能 是 因为 各 研究 控制 的 自 变 量 不 


尽 相 同 , 导致 其 对 结果 的 交互 影响 不 能 得 到 较 好 控制 与 准确 解释 (Andersson, 2016; Andersson 


& von Davier, 2014; Liang & von Davier, 2014; von Davier & Chen, 2013; Wiberg et al., 2014). 


未 来 应 开展 更 多 模拟 和 


等 值 结果 的 干扰 , 从 而 探究 不 同等 值 方 法 间 的 异同 。 同 时, 相对 于 核 等 值 与 CTT 等 值 方法 ， 
其 与 IRT 等 值 方 法 的 比较 研究 少 之 又 少 ,未 来 可 采用 更 为 系统 、 全 面 的 研究 设计 , 重点 探究 


究 ， 以 操纵 可 能 影响 等 值 结果 的 变量 , 排除 非 研究 目的 的 无 关 变 量 对 


后 两 者 之 间 的 表现 差异 。 
第 四 ， 核 等 值 软件 的 更 新 。 
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在 核 等 值 发 展 前 期 ，ETS 先后 开发 了 用 于 核 等 值 研究 的 核 等 值 软件 (ETS, 2007b) 与 
GENASYS 软件 (ETS, 2007a)， 但 现 已 不 再 公开 。 随 着 R 软件 (R Core Team, 2017) 在 社会 
科学 领域 的 广泛 应 用 ， 专 门 用 于 处 理 核 等 值 的 kequate 软件 包 (Andersson et al., 2013) 与 功 
能 较为 综合 的 SNSequate 软件 包 (Gonzalez, 2014) 相继 问世 。 但 kequate 软件 包 无 法 处 理 内 
锚 设 计数 据 ,， 且 常 因 函 数 算法 问题 报错 ; SNSequate 软件 包 因 几 乎 涵盖 常用 等 值 方法 ， 其 对 
核 等 值 方法 的 支持 略 显 不 足 。 再 者 ， 核 等 值 中 复杂 的 抢 阵 操作 和 运算 ， 使 得 研究 者 完全 自 编 
程序 开展 等 值 研究 面临 巨大 困难 ， 得 不 偿 失 。 故 而 ， 继 续 更 新 或 开发 更 为 功能 全 面 、 运 算 高 
效 、 操 作 方 便 的 软件 或 软件 包 ， 可 为 该 领域 的 研究 和 实践 提供 极 大 便利 。 
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Kernel equating: A framework of observed score equating 
WANG Shaojie; ZHANG Minqiang; LI Tuoyu; LIANG Zhengyan 
(School of Psychology, South China Normal University, Guangzhou 510631, China) 
Abstract: Kernel equating procedures include pre-smoothing, estimation of the score probabilities, 
continuization, equating, and evaluation of equating performance. By incorporating linear equating and 
equipercentile equating methods, kernel equating is more extensible and comprehensive. Pre-smoothing and 
continuization are distinctive features in kernel equating to reduce the standard error of equating. Standard error 
of the difference between equating functions are calculated as criterion for evaluating the performances of 
different kernel equatings. Continuization methods, bandwidth selection methods, etc., can affect the 
performance of kernel equating. New equating methods based on kernel equating provide an innovative 
perspective for researchers. Further researchers could focus on extending kernel equating framework by 
integrating other methods, updating smoothing procedures, and comparative studies. 
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